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寻 是 一 种 利用 问题 所 具有 的 启发 信息 来 引导 搜寻 、 发 现 目标 的 算法 , 该 算法 通过 减 小 搜寻 范 
局 来 降低 问题 复杂 性 ， 提 升 计 算 效 率 。 这 类 方法 主要 是 基于 Cordes fü McLaughlin 提出 的 单 
脉冲 信号 分 类 框架 站。 该 框架 将 单 脉 冲 信 号 的 提取 分 为 消 色 散 、 匹 配 滤波 、 阔 值 化 和 判断 等 
四 个 步 又， 以 确定 被 检测 信号 中 单 脉 冲 信号 的 存在 性 。 例 如 ，Deneva 等 人 使 用 一 种 聚 类 算 
法 将 信 噪 比 高 于 一 定 阔 值 的 疑似 脉冲 事件 筛选 为 单 脉 冲 候选 体 ]。Karako Argaman 等 人 根据 
色散 DM) 和 信号 时 间 对 脉冲 事件 进行 分 组 ， 然 后 基于 相 邻 分 组 中 最 大 信 噪 比 判 断 脉冲 信 
号 是 否 有 峰值 发 生 ， 据 此 筛选 并 创建 诊断 图 以 供 人 工 检查 名。Ryan 等 人 进一步 提出 了 一 种 
简单 的 递归 峰值 识别 算法 ， 利 用 弥散 脉冲 组 (DPG) 拟 合 线 的 斜率 来 识别 DPG 的 大 斜率 趋 
势 ， 并 据 此 判断 单 脉 冲 事 件 候选 体外 。 这 些 方 法 虽然 在 检测 脉冲 信号 时 有 一 定 的 作用 ， 但 是 

它们 主要 依靠 闵 值 分 割 来 提取 脉冲 星 信号 , 所 采用 的 特征 来 源 于 分 组 中 最 强 的 脉冲 信号 , 1 

此 导致 它们 往往 精度 有 限 ， 且 需要 大 量 人 工 参与 ， 难 以 适应 大 规模 、 海 量 的 数据 处 理 。 

= 近年 来 ， 随 着 传感器 技术 的 发 展 和 大 规 横 射 电 巡 天 的 推进 ,机 器 学 习 已 经 成 为 脉冲 星 信 
号 识别 的 重要 途经 00。 机 器 学 习 方 法 是 通过 对 已 知 脉冲 星 信号 的 特征 进行 统计 分 析 ， 建 立 
学 习 模 型 ， 然 后 利用 学 习 模 型 对 未 知 脉冲 信号 进行 判断 的 方法 。 该 方法 通常 需要 四 个 步骤 : 
C1) 建立 基准 数据 集 ; (2) 特征 提取 ; G) 模型 训练 与 评价 ; (40 模型 应 用 。McFadden 
等 人 在 总 结 机 器 学 习 在 脉冲 信号 筛选 中 的 应 用 时 , 指出 目前 已 有 的 机 器 学 习 算 法 主要 用 于 周 
期 性 脉冲 信号 的 搜寻 [1。 例 如 ， 人 工 神经 网 络 CANN) 算法 02129 和 模式 识别 算法 03 都 在 周 
期 性 脉冲 信号 搜寻 中 进行 了 应 用 。 虽然 机 嚣 学习 在 周期 性 脉冲 信号 中 己 经 有 了 许多 探索 , 但 
在 单 脉冲 信号 识别 中 的 应 用 才刚 刚 开始 并 逐渐 受到 重视 ,在 单 脉冲 信号 识别 的 机 器 学 习 应 用 
方面 ，Eatough 等 在 启发 式 阔 值 搜寻 算法 的 基础 上 ， 挑 选 了 信 噪 比 、 脉 冲 宽度 等 12 个 特征 
作为 三 层 人 工 神经 网 络 的 输入 ， 首 次 以 机 器 学 习 的 方法 进行 单 脉冲 信号 筛选 39。Ryan 等 人 
利用 Green Bank 望远镜 观测 到 的 数据 集 ， 从 脉冲 数量 -色散 图 、 信 噪 比 -色散 图 中 提取 了 16 
个 特征 ， 比 较 了 SVM, ANN, RULE 和 决策 树 等 方法 ， 实 验 结果 指出 使 用 随机 森林 集成 树 
的 分 类 器 在 查 全 率 和 碍 准 率 方面 提供 了 最 佳 的 整体 效果 由。Michilli 等 人 以 LOTAAS 数据 集 
为 例 ， 根据 每 个 特征 的 信息 增益 , 入选 了 用 于 单 脉冲 信号 分 类 的 五 个 重要 指标 : 峰值 检测 窗 
口 宽度 、 脉 冲 色散 平均 值 、 脉 冲 信 品 比 、 窗 口 宽 度 分 布 曲线 超额 峰 度 、 以 及 信 品 比分 布 曲线 
超额 峰 度 〈 关 于 各 个 指标 的 进一步 解释 请 见 本 文 2.3 节 ) 09。 该 工作 通过 比较 几 种 不 同 的 机 
器 学 习 算 法 , 认为 基于 高 斯 - 海 灵 格 快速 决策 树 的 方法 在 单 脉冲 信号 分 类 中 具有 最 好 的 性 能 。 
从 以 往 的 研究 来 看 ， 基 于 决策 树 的 方法 被 认为 是 性 能 最 好 的 方法 之 一 , 但 是 对 决策 树 模 
型 的 参数 估计 大 多 采用 了 小 规模 随机 抽样 的 方法 来 计算 ， 无 法 保证 最 终 分 类 结果 的 最 优 性 。 
近 些 年 机 器 学 习 领 域 又 对 决策 树 模 型 进行 了 改进 和 提升 ， 尤 其 是 基于 梯度 提升 的 GBDT 和 
XGBoost 算法 在 许多 领域 都 得 到 了 广泛 的 应 用 上。 因此 ， 本 文 则 在 探讨 XGBoost 4A HE 
式 特征 选择 方法 进行 单 脉冲 信号 识别 的 性 能 分 析 。 接 下 来 , 论文 第 二 部 分 介绍 用 于 研究 的 数 
据 集 ， 第 三 部 分 详细 说 明 XGBoost 算法 原理 ， 第 四 部 分 为 实验 结果 与 对 比分 析 讨 论 ， 最 后 
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2.1 数据 来 源 

良好 的 基准 数据 集 是 进行 机 器 学 习 训 练 应 用 和 研究 的 基础 ， 然 而 面 对 海量 的 脉冲 信号 ， 
对 脉冲 信号 进行 标注 是 短期 难以 完成 的 事情 。 因 此 在 本 文中 ， 我 们 直接 使 用 Michilli 工作 中 
已 标注 的 数据 集 用 于 模型 的 研究 03。 此 数据 集 来 源 于 低频 射电 联合 阵列 巡天 CLOFAR. 
tied-array all-sky survey, LOTAAS) 项 目 。 低 频 射 电 阵列 (Low frequency array，LOFAR ) 
由 荷兰 射电 天 文 研究 所 带头 主持 研发 , 是 一 种 由 数 千 个 天 线 组 成 的 大 型 射电 望远镜 , 这 些 天 
线 被 分 组 分 布 在 荷兰 和 其 他 欧洲 国家 的 观测 站 点 中 。 在 最 低频 段 以 高 分 辩 率 和 高 灵敏 度 用 于 
进行 脉冲 星 广泛 且 深 入 的 研究 084。LOTAAS 项 目 则 利用 了 其 中 12 个 子 站 进行 观测 ， 对 天 空 
中 的 每 个 指向 产生 222 个 同时 段 的 射电 数据 , 每 次 观测 时 间 持续 1 个 小 时 , 记录 数据 的 时 间 
分 辨 率 为 0.492 毫秒 ， 每 小 时 可 以 接受 16.9TB 的 原始 数据 09。 本 文 实验 所 用 数据 集 是 从 历 
次 LOTAAS 观测 中 抽取 的 。 

2.2 数据 预 处 理 过 程 

脉冲 星 的 搜寻 大 致 需要 四 个 阶段 , 分 别 是 射电 信号 数据 收集 、 消 色散 处 理 、 周 期 性 脉冲 
或 单 脉冲 搜寻 ， 以 及 人 工 判 别 申 ,其 中 色散 效应 是 天 体 物 理 信 号 和 RFI 信号 的 重要 区 别 之 一 
Po。 天 体 物理 信号 到 达 地 球 时 受 空间 中 不 同 密度 自由 电子 的 影响 ， 导 致 不 同 频率 的 信号 产 
生 不 同 的 延迟 效应 。 色 散 CDM) 是 对 信号 传播 方向 上 自由 电子 总 数量 的 度量 。 由 于 事先 并 
不 知道 天 体 信号 对 应 的 DM， 所 以 在 做 消 色 散 处 理 时 ， 需 要 用 不 同 的 DM 值 来 尝试 。 由 此 可 
知 ， 对 于 一 个 单 脉冲 信号 而 言 ， 虽 然 其 本 质 上 对 应 着 唯一 一 个 DM， 但 经 过 消 色 散 的 处 理 过 
程 ， 会 生成 很 多 根据 不 同 DM 消 色 散 得 到 的 候选 脉冲 信号 ， 这 些 不 同 DM 对 应 的 候选 脉冲 
言 号 ， 仍 然 可 能 被 检测 为 峰值 信和 号。 这样， 理论 上 的 一 个 脉冲 信号 可 能 会 被 检测 为 多 个 峰值 
言 号 ， 它 们 对 应 的 DM 值 非常 接近 。 因 此 ， 可 通过 对 被 检测 到 的 一 系列 峰值 信号 按照 对 应 
的 DM 值 进行 聚 类 分 析 , 聚集 到 一 起 的 峰值 信号 形成 一 个 弥散 脉冲 组 (Dispersed Pulse Groups, 
DPG)。 图 1 中 第 1 个 子 图 展示 了 一 个 弥散 脉冲 组 中 不 同 DM 值 下 得 到 的 脉冲 信号 的 信 品 比 
分 布 。 对 单 脉冲 信号 的 识别 ， 主 要 是 识别 弥散 脉冲 组 DPG) 是 来 源 于 脉冲 星 还 是 RFI， 如 
果 被 识别 为 脉冲 星 信 号 ， 则 进一步 输出 特征 图 信息 供 人 工 进一步 判断 。 

本 文 所 采用 的 数据 ,是 在 0 到 550 pc cm? 的 色散 范围 内 ,对 DM 每 间隔 0.01 到 0.1 pe cm? 
进行 一 次 计算 处 理 后 得 到 的 。 对 DM 处 理 后 的 数据 ， 采 用 不 同 长 度 的 矩形 窗 进行 峰值 检测 ， 
将 信 品 比 大 于 5 的 信号 进行 保存 ， 形 成 一 个 信号 事件 表 ， 保 存 的 信息 包括 窗口 宽度 、 色 散 、 
信号 时 间 等 。 基 于 信号 事件 表 中 每 条 记录 的 信号 时 间 和 DM 值 的 邻近 程度 ， 对 信号 事件 进 
行 聚 类 ae ea ww 
散 脉冲 组 (DPG) 。 图 1 展示 了 脉冲 星 编号 为 B1133+16 的 一 个 弥散 脉冲 组 的 信号 事件 分 布 
情况 ， 以 及 一 个 射频 干扰 信号 构成 的 弥散 脉冲 组 的 分 布 情况 。 从 中 可 以 看 出 ,脉冲 星 信 号 和 
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RFI 信号 的 弥散 脉冲 组 在 信 噪 比分 布 曲 线形 态 上 有 显著 差异 , 其 窗口 宽度 的 分 布 曲线 也 有 明 
显 差异 ， 这 些 形态 特征 有 助 于 脉冲 星 弥 散 脉冲 组 的 识别 。 


B1133+16 RFI B1133+16 RFI 
————— 
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图 1 单 脉 冲 和 RFI 弥散 脉冲 组 CDPG) 事件 分 布 示意 


Fig. 1 DPG distribution curve of S/N and Duration for single pulse and RFI 


2.3 数据 特征 设计 

经 过 滤 和 峰值 检测 筛选 后 ,信和 号 事件 表 记 录 的 总 记录 数 约 374 万 条 ,形成 的 弥散 脉冲 组 
(DPG) 53066 条 ， 其 中 35063 条 为 射频 干扰 CRED 记录 ，18003 条 属于 47 个 已 知 脉冲 星 
的 脉冲 记录 。 对 弥散 脉冲 组 (DPG) 的 特征 设计 是 进行 正确 分 类 的 重要 内 容 ， 参 考 已 有 弥散 
脉冲 组 DPG) 特征 应 用 的 方法 ， 本 文 设计 以 下 特征 : 


C1) 色散 DM) ， 是 脉冲 星 和 地 球 之 间 沿 信号 传播 方向 的 自由 电子 积分 柱 密度 ， 单 
位 pc cm3， 一 个 弥散 脉冲 组 (DPG) 的 DM 值 取 其 中 最 强 的 信号 事件 对 应 的 DM 值 。 


(2) 信 噪 比 (SN) ， 是 信号 和 噪声 的 比值 ， 即 射电 望远镜 接收 到 信号 的 电压 值 与 同 
时 记录 的 噪声 电压 的 比值 。 信 噪 比 越 高 ， 即 信号 越 强 ， 噪 声 越 弱 。 信 噪 比 是 判断 脉冲 事件 的 
主要 依据 ， 一 个 弥散 脉冲 组 CDPGO 的 S/N 取 其 中 最 强 的 信号 事件 对 应 的 S/N 值 。 


(3) AORE (Duration) ， 对 时 间 序 列 信号 进行 峰值 检测 时 ， 所 用 的 矩形 窗 函 数 的 窗 
口 宽 度 ， 即 窗口 的 时 间 范 围 ， 是 用 于 峰值 提取 的 计算 参数 。 在 进行 峰值 检测 时 ， 采 用 了 一 系 
列 不 同 的 窗口 宽度 进行 检测 , 不 同 的 窗口 宽度 可 能 检测 出 不 一 样 的 峰值 结果 。 一 个 弥散 脉冲 
组 (DPGO 的 窗口 宽度 取 其 中 最 强 的 信号 事件 对 应 的 窗口 宽度 。 


(4) 色散 范围 CDM Extent 缩 写 为 DM_E) ， 是 一 个 弥散 脉冲 组 DPO 中 所 有 信号 
事件 对 应 的 DM 值 范围 ， 即 图 1 中 第 1 个 子 图 中 曲线 的 覆盖 范围 


(5) 时 间 范 围 《〈Time Extent 缩 写 为 Time E) ， 是 一 个 弥散 脉冲 组 (DPG) 中 所 有 信 
号 事件 对 应 的 时 间 范 围 ， 单 位 秒 。 


(6) 事件 个 数 (Number of Events, 缩 写 为 N_Events) ， 是 一 个 弥散 脉冲 组 (DPG) 包 
含 的 信号 事件 的 数量 ， 数量 太 少 则 说 明 没有 太 强 的 色散 效应 ， 大 概率 不 是 脉冲 星 信号。 


{lin 
pun 
= 
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(7) 色散 平均 值 (Average DM., 缩 写 为 apDM) ， 属 于 同一 个 弥散 脉冲 组 (DPG) 的 所 
言 号 事件 的 平均 色散 。 


(8) 脉冲 平均 时 间 (Average Time of Pulse, 缩写 为 aTime), 形成 一 个 弥散 脉冲 组 (DPG) 
的 所 有 信号 的 平均 时 间 。 因 为 LOTAAS 项 目 利 用 了 12 个 子 站 同时 进行 观测 ， 对 天 空中 的 每 
个 指向 产生 222 个 天 体 辐射 数据 , 这 些 数 据 经 过 前 期 预 处 理 , 会 形成 很 多 不 同时 间 序 列 的 数 
据 , 脉冲 平均 时 间 对 于 判断 不 同时 间 序 列 上 的 脉冲 信号 是 否 来 自 同一 个 天 体 有 一 定 帮 助 。 对 
于 脉冲 星 信号 ， 在 多 个 子 站 可 能 同时 被 观测 到 ， 而 对 于 RA 信号 ， 往 往 只 会 在 一 个 子 站 被 
观测 到 。 


(9) 信 噪 比分 布 曲 线 超额 峰 度 〈KurtSigma) : 形成 一 个 弥散 脉冲 组 (DPG) 的 所 有 信 
号 的 信 噪 比分 布 曲线 的 峰 度 值 减 去 正 态 分 布 的 峰 度 , 即 图 1 前 两 个 子 图 中 曲线 的 峰 度 减 去 正 
态 分 布 时 的 峰 度 ， 正 态 分 布 的 峰 度 系数 为 3。 


(10) 窗口 宽度 分 布 曲 线 超额 峰 度 (KurtDuration〉: 形成 一 个 弥散 脉冲 组 (DPG) 的 
每 个 事件 在 峰值 检测 时 所 用 的 窗口 宽度 值 的 分 布 曲线 的 峰 度 值 减 去 正 态 分 布 的 峰 度 ， 即 图 1 
中 ， 后 两 个 子 图 分 布 曲 线 的 峰 度 值 减 去 正 态 分 布 的 峰 度 。 


3. 方法 
3.1 GALA 
特征 选择 的 目的 在 于 去 除 与 当前 学 习 任 务 无 关 和 宛 余 的 特征 ， 降 低 学 习 任 务 的 难度 , 促 
进 对 特征 和 问题 的 理解 。 其 关键 是 建立 一 种 评价 标准 来 区 分 哪些 特征 组 合 有 助 于 识别 。 为 了 
增强 特征 与 模型 之 间 的 相关 性 , 提升 模型 性 能 , 进行 识别 前 , 本 文采 用 包 囊 法 进行 特征 选择 。 
包 硅 式 特征 选择 方法 与 后 续 任务 选用 的 分 类 学 习 器 直接 相关 , 以 学 习 器 的 性 能 作为 特征 
子 集 的 评估 准则 ， 即 包 衰 式 特 征 选择 方法 直接 针对 给 定 学 习 器 进行 优化 (图 2) 。 因 此 ， 包 
庄 式 特征 选择 方法 决策 出 的 特征 子 集 是 最 易 与 当前 选用 的 分 类 器 契合 的 。 


Select the best feature set 


Subset Classification Feature 
generation 2i algorithm Nu evaluation 


Feature set Selected Classification 
feature subset algorithm 


图 2 SER EET 
Fig. 2 Wrapped method for feature selection 
本 文采 用 递归 特征 消除 (Recursive feature elimination, RFE〉 的 方法 来 实现 包裹 式 的 特 
征 选择 。 分 类 器 在 给 定 的 特征 集合 上 进行 训练 , 再 从 当前 的 特征 集合 中 移 除 最 不 重要 的 特征 ， 
在 新 的 特征 集合 上 继续 训练 。 不 断 重复 递归 这 个 过 程 , 直到 最 终 达 到 所 需要 的 特征 数量 为 止 
就 决策 出 了 最 优 的 特征 子 集 。 对 于 给 定 分 类 器 , 最 后 选 出 的 特征 子 集 包 含 的 特征 就 是 最 重要 
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的 特征 。 
3.2 XGBoost 分 类 学 习 器 

XGBoost 是 一 种 集成 学 习 算 法 ， 在 决策 树 的 基础 上 采用 集成 策略 。XGBoost 包含 一 个 
迭代 残 差 树 的 集合 , 利用 梯度 提升 算法 不 断 减 小 已 生成 的 决策 树 的 损失 , 每 一 棵 树 都 在 学 习 
其 前 面 所 有 树 的 残 差 ， 将 每 棵 树 预 测 的 结果 值 相 加 作为 样本 的 最 终 预测 结果 。 

XGBoost 利用 向 前 分 布 算法 ， 学 习 到 包含 K 棵 树 的 加 法 模型 : 


A K 
y= > FE (1) 
t-l 


其 中 作为 树 的 总 棵 树 ， /表示 第 t 棵 树 ，x 表示 输入 样本 ，》 表示 预测 结果 ， 太 (oo ) den 
第 t 棵 树 的 预测 结果 ，F 表示 决策 树 组 成 的 函数 空间 。 
为 了 求解 整个 决策 树 的 函数 空间 , 需要 不 断 优化 目标 函数 , XGBoost 的 整体 目标 函数 可 
RAHM, 


Ohj(t) 1.) + LO) © 


Jt ry, y) 为 损失 函数 ， 表 示 预 测 值 》 与 目标 值 ZWA, Q) 为 第 + 棵 树 的 正 


则 项 ， 用 来 约束 决策 树 的 复杂 度 ， 决 策 树 的 复杂 度 越 高 ， 正 则 项 越 大 。 
首先 ， 通 过 贪心 算法 寻找 局 部 最 优 解 : 


yO -Y fi) =p fo) 6) 
j=l 


y? AB t AKARTA i BRD ED PRU ARE ET NSE PG HE ABE AIA R R EB ERE BAT 


fro HEN, Apnea eres A: 


Obj - V (y, y f) (f) (4) 


i=l 


其次 ， 对 目标 函数 采用 二 阶 泰勒 近似 展开 得 到 : 


Obj =Y y +g) TAG )* OG) 2 


i-l 
其 中 g, fl h, A ES RA ERU — IS BA Pr S): 


g.=0, Ky, y ^), 


MOD 
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ics Jg ) 
y (to) 


移 除 对 第 t+ 轮 迭 代 来 说 为 常数 项 的 1() , y 070) 得 到 | 


" n 1 
Obj® 2 (g, f (x) zh 0) *O(f,) (6) 
j=l 
XGboost 中 正则 项 用 来 衡量 树 的 复杂 度 : 
1 T 
QA) - T 974 oj (7) 
j=l 


其 中 工 表 示 每 棵 树 的 节点 数量 ， 〇 为 每 棵 树 的 叶子 节点 的 输出 分 数 ，7,4 为 常数 。 可 以 进 
一 步 地 将 目标 函数 表示 为 : 


«(t 1 1 l > 
Obj‘ ) = (gH) + A QS) T +542 @; G 
i-l j 
将 输入 的 x 映射 到 叶子 节点 上 ， 则 有 : fou) = Oyo ER, q: RY > 02, T): 


并 定义 每 个 叶子 节点 j 上 的 样本 集合 为 I, = {i | q(x;) = J 


此 时 ， 目 标 函 数 可 以 表示 为 : 


T 
Obj” =F (G,o, + zt, * A)o 5) T (9) 
j=l 


其 中 G; E ae 8i i H, = 2 h, 
最 后 ， 对 目标 函数 进行 优化 ， 计 算 第 t+ 轮 时 使 目标 函数 最 小 的 叶 节 点 的 输出 分 数 @， 直 
接 对 四 进行 求 导 ， 使 得 导数 为 0， 得 到 : 
G, 


o,=-— (10) 
” 五 +4 


将 公式 (10) 带 入 (9) 中 ， 得 到 最 终 优 化 的 目标 函数 : 
c 
H,+A 


T 
Obj” = X )- T (11) 
j=l 


在 选择 特征 属性 进行 节点 分 裂 时 , XGBoost 会 利用 贪心 算法 或 近似 贪心 算法 , 遍历 所 有 
特征 的 划分 点 ， 分 别 计算 对 应 的 目标 函数 值 的 增益 ， 选 择 最 优 的 特征 进行 分 裂 。 当 新 的 分 裂 
带 来 的 增益 小 于 设 定 的 阔 值 或 达到 设 定 的 最 大 深度 时 , 停止 树 的 生长 。 XGBoost 对 代价 函数 
进行 了 二 阶 泰 勒 展开 ， 还 引入 了 缩减 、 行 抽样 和 列 抽样 等 操作 ， 具 有 良好 的 预防 过 拟 合 、 较 
高 的 计算 效率 和 泛 化 能 力 的 特性 。 对 于 XGBoost 的 程序 实现 可 以 直接 采用 基于 Python 语言 


C— 
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的 机 器 学 习 工 具 包 Scikit-learn. 
3.3 特征 筛选 评价 流程 

基于 上 述 的 理论 和 方法 ， 本 文 将 包 训 式 特征 选择 和 XGBoost 算法 相 结合 。 根 据 输入 的 
数据 集 ， 设 定 一 个 净值 ， 取 在 该 阀 值 下 的 最 佳 特征 子 集 ， 并 将 得 到 的 特征 子 集 输入 XGBoost 
算法 用 于 分 类 ， 得 到 结果 。 有 具体 流程 图 如 图 3 所 示 。 


Dataset 


Test set 
20% 


T 
l 

1 

1 

Training set | 
80% | 

l 

" l 
Single pulse I 
recognition results I 

l 

1 

l 

1 

l 

1 

l 


Wrapped feature 
selection 


Decision 


Hyperparameter 
optimization 
The best feature i XGBoost classifier 
subset i 


图 3 XGBoost 24 tL XE UF EH ite Al 
Fig. 3 Model flowchart of feture selection with XGBoost 


为 了 分 析 当 前 方法 的 分 类 效果 , 我 们 利用 混淆 矩阵 对 模型 的 预测 结果 进行 评价 。 本 文 数 
据 集 分 为 RFI 弥散 脉冲 组 CDPG) 和 单 脉 冲 弥散 脉冲 组 〈DPG) 。 如 果 一 个 脉冲 星 的 弥散 
脉冲 组 (DPG) 被 正确 地 识别 为 单 脉冲 信号 ， 则 我 们 称 之 为 真 阳 性 (True Positive; TP) , 
若 被 错误 地 分 类 为 RFI 信号 ， 则 称 之 为 伪 阴 性 (False Negative, FN) 。 同 样 ， 如 果 一 个 RFI 
数据 被 错误 地 分 类 为 单 脉 冲 信号 ， 则 为 假 阳 性 (False Positive, FP) ， 一 个 REFI 数据 被 正确 
地 分 类 为 RFI， 则 为 真 阴性 (True Negative, TN) . #1 为 二 分 类 情况 下 的 混淆 矩阵 。 
表 1 二 分 类 混淆 矩阵 


Table 1 Confusion matrix for binary classification 


Prediction 


Target 
Confusion Matrix 
Positive Negative 
Positive TP FP 
Model 
Negative FN TN 


在 二 分 类 问题 中 常用 的 评价 指标 有 准确 率 Caccuracy) ~ RIKK Cerror) 、 精 确 率 
(precision) 、 召 回 率 (recall) 和 Fl fii (Fl-score) 2]。 其 中 ， 准 确 率 表 示 正 确 分 类 的 样本 
占 总 样本 的 比例 ， 当 数据 集中 存在 各 类 别 样本 不 平衡 的 情况 时 ， 分 类 器 倾向 将 样本 判断 为 来 
自 比 例 较 大 的 类 别 ， 出 现 准确 率 虚 高 的 情况 。 因 此 ， 仅 凭 准确 率 并 不 能 客观 评价 算法 性 能 ， 


还 需要 引入 其 他 评价 指标 。 精 确 率 表示 预测 为 脉冲 星 的 样本 中 真正 的 脉冲 星 信号 所 占 的 比例 。 


iv 


召回 率 表 示 脉 冲 星 信 号 被 正确 识别 为 脉冲 星 信 号 


彼 长 的 问题 ， 


F1 值 则 综合 了 精确 率 和 召回 率 的 结 


到 的 Fl 值 越 高 说 明 方法 的 性 能 整体 上 越 理 想 。 


4 ”结果 与 讨论 
实验 所 使 用 的 数据 集 包 含 来 自 47 个 已 知 脉冲 星 的 弥散 脉冲 组 CDPGO 18003 个 ， 射 频 


干扰 弥散 脉 


据 分 类 中 出 现 数据 泄露 ,同时 保 订 
对 数据 集 进 行 随机 划分 ， 而 是 分 别 将 属于 47 个 已 知 脉冲 和 
扰 弥散 脉冲 组 CDPGO 随机 进行 10 次 分 组 ， 每 次 分 组 将 80%， 即 38 个 已 知 脉冲 星 的 弥散 
F 扰 信号 80% 的 弥散 脉冲 组 CDPGO 用 于 训练 ， 剩 余 9 个 已 知 脉冲 
组 (DPG) 和 射频 干扰 20% 的 记录 用 于 验证 。 

为 了 对 比分 析 ， 本 文 除 了 采 月 
和 BP 神经 网 络 模型 (BPNN) Xf 


脉冲 组 (DPG) 和 射频 3 


星 的 弥散 脉 ; 


果 ， 可 以 调和 平均 两 个 指标 ， 


证 方法 进行 模型 的 训练 和 评估 ， 其 中 80% 用 于 训练 ， 剩 余 的 2096 H 
E 单 脉冲 样本 和 射频 干扰 样本 尽量 均衡 , 在 实验 中 不 是 直接 
的 弥散 脉冲 组 (DPG) 和 射频 干 


的 比例 。 精 确 率 和 召回 率 两 个 指标 存在 此 消 


M2, 


HT S ul 


前 方法 得 


组 (DPG) 35063 个 。 有 具体 操作 步骤 是 将 数据 集 随 机 划分 10 次 ， 使 用 交叉 验 
E。 为 了 避免 在 数 


H XGBoost 方法 外 ,还 对 GBDT、AdaBoost、Random forest 
行 了 实验 对 比 。 为 了 使 结果 具有 可 对 比 行 ， 对 比 前 对 每 种 


方法 都 进行 了 调 优 ， 实 验 结果 选用 的 都 是 调试 出 的 最 优 参数 ， 其 中 BPNN 采用 的 是 三 层 架 
构 〈 输 入 层 10 个 节点 ， 隐 藏 层 56 个 节点 ， 输 出 2 个 节点 ) ， 学 习 率 为 0.0015, EHX SU 


损失 函数 和 Adam 优化 器 : GBDT 和 Random forest 的 


最 大 迭代 次 数 是 100， 最 大 深度 是 20, 


学 习 率 为 2; AdaBoost 的 最 大 迭代 次 数 是 100。 表 2 显示 了 五 种 模型 在 该 数据 集 上 10 次 随 
机 划分 的 平均 实验 结果 。 
表 2 适用 于 不 同 模型 的 最 优 特征 子 集 及 


Table 2 Best feature sets and average results for different models 


F 均 实验 结果 


Error rate Precision Recall F1-Score 
Model Best feature subset 
(Variance) (Variance) (Variance) (Variance) 
aaa Duration, DM, S/N, DM_E, Time_E, 2.16% 97.57% 99.28% 98.41% 
N events, aDM, KurtDuration, KurtSigma (0.0007) (0.0012) (0.0000) (0.0003) 
Duration, DM, S/N, DM E, Time E, aDM, 4.0596 96.14% 98.12% 97.09% 
I N events, KurtDuration, KurtSigma (0.0004) (0.0010) (0.0000) (0.0002) 
mon Duration, DM, S/N, DM E, Time E, aDM, 3.16% 96.53% 99.02% 97.74% 
aTime, N events, KurtDuration, KurtSigma (0.0003) (0.0007) (0.0000) (0.0002) 
Random Duration, DM, S/N, DM E, Time E, aDM, 3.95% 95.70% 99.18% 97.35% 
Forest N_events, KurtDuration, KurtSigma (0.0013) (0.0016) (0.0000) (0.0004) 
BPNN Duration, DM, S/N, DM_E, Time_E, aDM, 3.98% 97.47% 98.11% 97.75% 
aTime, N events, KurtDuration, KurtSigma (0.0001) (0.0009) (0.0001) (0.0002) 
ORARE PEAY EA BH 2S di ET RRE I RE ERE EAE E 


种 特征 子 集 的 分 类 性 能 ， 表 2 列 出 了 不 同 分 类 器 和 其 最 优 特征 组 合 的 分 类 评价 结果 。 从 表 2 
可 以 看 出 ， 五 种 模型 对 脉冲 星 弥 散 脉冲 组 (DPG) 和 RFI 弥散 脉冲 组 (DPG) 的 分 类 结果 


都 具有 较 高 的 精确 率 和 召 


回 率 。 特 别 是 ，XGBoost 的 精确 


率 、 召 回 率 与 F1-Score 是 五 种 模 
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型 中 最 高 的 ， 比 其 它 模型 平均 高 出 1 到 2 个 百分点 。 从 误 分 类 率 来 看 ，GBDT 的 误 分 类 率 最 
高 ，XGBoost 误 分 类 率 最 低 。 综 合 几 个 指标 的 结果 可 以 看 出 ，XGBoost 在 单 脉 冲 信 号 弥 癌 
脉冲 组 (DPG) 分 类 识别 方面 更 有 综合 优势 。 


从 特征 应 用 上 看 , 色散 (DM)、 (REL S/N), fai FE BE (Duration) . 色散 范围 CDM. E). 
时 间 范 围 (Time E) 、 事 件 个 数 CN Events) 、 色 散 平 均值 (aDM) 、 窗 口 宽 度 分 布 曲线 
超额 峰 度 (KurtDuration〉、 信 品 比 分 布 曲线 超额 峰 度 KurtSigma) 等 九 个 特征 参数 被 五 个 
模型 都 看 作 是 最 优 特征 组 合 ，AdaBoost 和 BPNN 模型 进一步 把 脉冲 平均 时 间 (aTime) 也 选 
为 最 优 特征 。aTime 没有 被 其 它 三 个 模型 选 为 最 优 特征 ， 说 明 该 特征 对 单 脉冲 识别 的 作用 不 
是 特别 显著 。 

对 XGBoost 分 类 器 ， 除 了 用 于 模型 训练 的 特征 之 外 ， 超 参数 也 会 在 一 定 程度 上 会 影响 
单 脉冲 识别 的 结果 ， 其 中 树 的 最 大 深度 、 模 型 的 学 习 速 率 是 影响 结果 性 能 的 主要 参数 。 
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图 4 所 示 为 树 的 最 大 深度 对 模型 的 训练 时 间 以 及 了 Fl 值 的 影响 。 当 树 的 最 大 深度 小 于 25 
时 ， 训 练 模 型 花费 的 时 间 稳 步 上 升 ， 而 后 基本 保持 平稳 不 变 ， 而 模型 的 Fl 值 随 着 树 的 最 大 
深度 变化 呈现 出 先 升 后 降 ， 而 后 平稳 的 趋势 。 当 树 的 最 大 深度 取 值 为 6 时 ，XGBoost 能 够 在 
测试 集 上 获得 一 个 最 高 的 Fl 值 ， 且 用 时 相对 来 说 也 较 短 。 由 此 可 见 ， 在 本 文 使 用 的 数据 集 
上 ， 树 的 最 大 深度 在 6 时 能 同时 权衡 训练 模型 的 时 间 消 耗 和 单 脉冲 分 类 任务 的 性 能 。 图 5 
展示 了 学 习 速 率 对 XGBoost 的 性 能 影响 。 由 图 5 可 知 , 在 学 习 率 达到 0.007 的 时 候 , XGBoost 
能 获得 最 好 的 分 类 性 能 。 

特征 数量 同样 也 会 影响 模型 对 单 脉冲 识别 的 性 能 。 在 本 文 所 使 用 的 数据 集 上 对 10 个 特 
征 使 用 XGBoost 结合 包 囊 式 特征 选择 算法 对 特征 重要 程度 进行 分 析 。 针 对 包 右 式 特征 选择 
算法 , 我 们 通过 设置 不 同 闵 值 获得 不 同 规模 的 最 优 特征 子 集 , 并 比较 分 析 基 于 这 些 特征 子 集 
的 模型 性 能 。 表 3 展示 了 基于 不 同 规模 特征 子 集训 练 的 XGBoost 模型 在 单 脉冲 信号 识别 任 
务 上 的 Fl 值 。 
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K 3 XGBoost 模型 基于 不 同 规模 的 最 优 特征 子 集训 练 时 分 类 的 Fl 什 


Table 3 F1-scores for different feature sets with XGBoost classification 


Feature count The best feature subset F1-score 

4 Duration, DM, S/N, DM E 0.9706 

3 Duration, DM, S/N, DM E, aDM 0.9678 

6 Duration, DM, S/N, DM E, aDM, Time E 0.9741 

7 Duration, DM, S/N, DM E, aDM, Time E, N events 0.9769 

8 Duration, DM, S/N, DM E, aDM, Time E, N events, KurtSigma 0.9838 
Duration, DM, S/N, DM E, aDM, Time E, N events, 

9 0.9866 
KurtSigma, KurtDuration 


Duration, DM, S/N, DM E, aDM, Time E, N events, 
10 0.9845 
KurtSigma, KurtDuration, aTime 


结果 表明 ,特征 的 数量 也 会 影响 脉冲 信号 分 类 的 性 能 。 虽 然 每 个 特征 对 模型 的 影响 不 同 ， 
二 一 但 输入 特征 的 数量 和 组 合 也 是 影响 模型 性 能 的 关键 因素 。 可 以 看 出 , 输入 不 同 数量 的 特征 会 


得 到 不 同 的 结果 。 当 特 {il E 数 EN 9, 特 征 为 Duration, DM, S/N, DM E, aDM, Time E, N events, 


KurtSigma, KurtDuration 时 ， 可 以 获得 最 高 的 Fl 值 。 


5. 结论 
近年 来 , 随 着 周期 性 脉冲 信号 探测 方法 的 成 熟 , 对 单 脉冲 信号 的 识别 成 为 脉冲 星 研究 的 


一 个 重要 领域 ,由 于 单 脉冲 信号 可 以 提取 的 特征 相对 较 少 ,机 器 学 习 方 法 成 为 最 主要 的 方法 。 
设计 关键 特征 ， 并 寻找 最 优 的 机 器 学 习 算法 是 当前 脉冲 星 信号 识别 的 关键 任务 。 

本 文 在 前 人 研究 的 基础 上 ， 将 XGBoost 分 类 器 与 包 庄 式 特征 选择 相 结合 ， 以 LOTAAS 
数据 集 为 例 ， 与 AdaBoost、GBDT、Random Forest 和 BP 神经 网 络 等 模型 进行 了 实验 对 比 。 
研究 结果 表明 ，XGBoost 在 单 脉冲 识别 方面 误 分 类 率 更 低 ， 精 确 率 、 召 回 率 与 Fl1- 值 更 高 ， 
c 是 进行 单 脉冲 信号 识别 提取 的 优秀 方法 。 本 文 在 实验 设计 中 ， 将 47 个 已 知 脉冲 星 和 射频 

扰 信 号 分 别 随 机 进行 10 次 分 组 ， 有 效 避免 了 数据 集 划 分 造成 数据 泄露 的 影响 。 如 果 直 接 将 
来 自 47 个 脉冲 星 的 18003 个 弥散 脉冲 组 (DPG) 进行 分 组 训练 和 测试 ， 得 到 精确 度 将 高 达 
99.79%, Fl-score 高 达 99.76%。 可 见 训练 集 和 测试 集 的 划分 方法 对 识别 结果 具有 重要 影响 。 

从 特征 选择 上 看 , 本 文 的 实验 结果 表明 色散 、 信 噪 比 、 窗 口 宽 度 、 色 散 范围 、 时 间 范 围 、 
事件 个 数 、 色 散 平 均值 、 窗 口 宽度 分 布 曲线 超额 峰 度 、 信 品 比 分 布 曲线 超额 峰 度 等 九 个 特征 
被 最 多 模型 选择 ， 有 具有 良好 的 判别 力 。 

对 单 脉 冲 信 号 进行 标注 建立 训练 数据 集 是 一 件 费 力 耗 时 的 工作 , 需要 长 期 的 积累 。 本 文 
虽然 是 以 LOTAAS 数据 集 作 为 研究 对 象 ， 其 研究 结果 和 方法 可 以 为 我 国 开展 以 FAST 探测 
信号 为 主 的 单 脉冲 信号 研究 与 应 用 提供 参考 。 目 前 对 我 国 FAST 数据 的 挖 气 和 应 用 正在 大 力 

进 中 ， 并 已 成 功 探测 到 属于 单 脉冲 的 快速 射电 暴 P329。 另 外 ， 随 着 对 单 脉冲 信号 特征 的 
持续 分 析 和 挖掘 ， 新 的 研究 方法 也 将 不 断 提出 和 改进 。 
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Research on recognition method of single-pulse signals based on XGBoost 
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Abstract: 


With the construction of large-scale radio telescopes, detecting pulsars from large-scale pulse 
signals has become an important task of space exploration. Machine learning algorithms are 
favored in single-pulse data analysis due to their data-driven advantages. However, algorithms 
used in pulsar searching cannot guarantee that their results are global optimal solutions. In this 
paper, eXtreme Gradient Boosting (XGBoost) method is studied in single pulse classification with 
the data from the LOFAR Tied-Array All-Sky Survey (LOTAAS). The LOTAAS is is an ongoing 
survey of the Northern sky for pulsars and transients with LOFAR using a digital aperture array. 
As of January 2019, the LOTAAS survey has discovered and confirmed 73 radio pulsars, which 
demonstrates its ability to find new pulsars. A fully labeled data set used for training and 
validation of the machine model is necessary. However, faced with massive amounts of 
astronomical observation data, it's time-consuming and laborious work to labeling data with 
manual inspection. In this study, we directly use the well-prepared data in the work of Michilli et 
al. (2018) for saving the labor of repetitive processing of data. In order to verify the performance 
of XGBoost method, this paper compares the algorithm with other four machine learning models,. 
The results show that XGBoost combined with wrapped feature selection method has more 
advantages in single pulse recognition, with the lowest misclassification rate and the highest 
accuracy, and F1 score. This study has important implications for pulsar monitoring and can 
provide a reference for the research of single pulse search based on Five-hundred-meter Aperture 


Spherical radio Telescope (FAST) signals in China. 
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